MinerU 私有版本部署

特别说明

仅适用于 V5.11 以上的版本才支持私有化接入。 本章节内容为可选阅读,仅供参考。由于不同的硬件配置与部署环境可能存在差异,实际问题也会有所不同。建议按照本文环境及操作步骤执行,如遇异常可随时向 AI 寻求帮助,或咨询MinerU 官方,PIG AI 无法提供支持。

一、环境准备

1.1 硬件与系统要求

请确保你的机器满足以下最低配置:

  • GPU:NVIDIA GeForce RTX 4090(显存 ≥24GB)

    其他支持 CUDA 的 NVIDIA 显卡也可尝试,但建议显存 ≥16GB。

  • 操作系统:Ubuntu 22.04 LTS(推荐使用纯净安装)
  • CUDA 版本:12.8
  • Python 版本:3.10 或更高

    推荐使用系统自带 Python 或通过 conda 管理环境。

1.2 验证 PyTorch + CUDA 是否正常

打开终端,运行以下命令,检查你的 GPU 和深度学习环境是否就绪:

python3 -c "
import torch;
print('PyTorch版本:', torch.__version__);
print('CUDA可用:', torch.cuda.is_available());
print('CUDA版本:', torch.version.cuda);
print('GPU设备:', torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'None');
print('GPU数量:', torch.cuda.device_count());
"

正常输出示例

PyTorch版本: 2.9.0+cu128 CUDA可用: True CUDA版本: 12.8 GPU设备: NVIDIA GeForce RTX 4090 GPU数量: 1
CUDA 检查说明

如果看到 CUDA可用: False,说明 PyTorch 没有正确识别 GPU,请先安装对应 CUDA 版本的 PyTorch。


二、部署 MinerU 私有服务

2.1 获取项目代码

在终端中执行以下命令,下载 MinerU 服务代码:

git clone https://git.pig4cloud.com/pig/mineru-api.git
cd mineru-api

2.2 创建 Python 虚拟环境(推荐)

为了避免依赖冲突,建议使用虚拟环境:

python3 -m venv menv          # 创建名为 menv 的虚拟环境
source menv/bin/activate      # 激活虚拟环境
环境激活说明

激活后,命令行前缀通常会显示 (menv),表示你已进入该环境。

2.3 安装依赖

依次执行以下命令安装所需组件:

# 安装 MinerU 核心功能包
pip3 install -U "mineru[core]"

# 安装项目运行所需的其他依赖
pip3 install -r requirements.txt
安装加速说明

如果网络较慢,可考虑使用国内镜像源(如清华源)加速安装。

2.4 (可选)安装 LibreOffice(用于 Word/PPT 转 PDF)

如果你需要解析 .docx.pptx 等 Office 文档,建议安装 LibreOffice:

sudo apt update
sudo apt install libreoffice -y
格式转换说明

安装后,MinerU 会自动将这些格式转换为 PDF 再进行解析。

2.5 安装缺失的图形库(如遇报错)

某些系统可能缺少图像处理依赖,若启动时报错类似 libGL.so 找不到,请运行:

sudo apt install libgl1-mesa-glx -y

三、启动 MinerU 服务(GPU 模式)

3.1 启动服务

执行启动脚本:

./start_mineru_gpu.sh start
GPU 配置说明

默认脚本会使用 第 5 张 GPU(即 CUDA_VISIBLE_DEVICES=4)。 如果你只有一张 GPU(比如 RTX 4090),请先编辑脚本。

nano start_mineru_gpu.sh

找到这一行:

export CUDA_VISIBLE_DEVICES=4

将其改为:

export CUDA_VISIBLE_DEVICES=0

保存后退出(Ctrl+O → 回车 → Ctrl+X),再重新启动服务。

3.2 停止服务

如需停止服务,运行:

./start_mineru_gpu.sh stop

3.3 服务信息

  • 服务地址http://0.0.0.0:8020
  • 工作进程数:4 个(可处理并发请求)
  • 日志文件server.log(记录所有请求和错误)
  • 测试页面:浏览器访问 http://localhost:8020/web

四、接入 PIG AI 系统

要在 PIG AI 中使用你本地部署的 MinerU 服务,请修改其配置文件(通常是 application.yml),添加以下内容:

pig:
  ai:
    mineru:
      enabled: true           # 启用 MinerU 功能
      private: true           # 使用私有部署(而非公有云)
      base-url: http://127.0.0.1:8020   # 指向你本地的服务地址
关键说明
  • private: true 表示 不调用云端 API,而是使用你刚部署的本地服务。
  • 确保 PIG AI 和 MinerU 运行在 同一台机器,或 网络互通(能互相访问 8020 端口)。
  • 如果你用 Docker 或 Kubernetes 部署,请开放 8020 端口,并确保容器间网络连通。